什么是数据准备? 您所在的位置:网站首页 数据收集 数据分析 什么是数据准备?

什么是数据准备?

2024-04-26 08:23| 来源: 网络整理| 查看: 265

数据准备遵循一系列步骤,从收集正确的数据开始,接着是清洗、标注,然后是验证和可视化。

收集数据

收集数据是收集 ML 所需的所有数据的过程。数据收集可能很繁琐,因为数据驻留在许多数据来源中,包括笔记本电脑、数据仓库、云中、应用程序内部和设备上。寻找连接到不同数据来源的方法可能很有挑战性。数据量也呈指数级增长,因此需要搜索大量数据。此外,根据数据来源的不同,数据的格式和类型也有很大不同。例如,视频数据和表格数据不容易一起使用。

清洗数据

作为确保数据质量的一个步骤,清洗数据可以纠正错误并填充缺失的数据。有了干净的数据后,您需要将它转换成一致、可读的格式。这个过程可能包括更改日期和货币等字段格式、修改命名约定以及更正值和度量单位,使它们保持一致。

标注数据

数据标注过程用于识别原始数据(图片、文本文件、视频等)并添加一个或多个有意义的信息标签以提供上下文,从而使 ML 模型能够从它进行学习。例如,标签可指示照片是否包含鸟或汽车、录音中有哪些词发音,或者 X 影像是否发现了异常。各种使用案例都需要用到数据标注,包括计算机视觉、自然语言处理和语音识别。

验证和可视化

清洗和标注数据之后,ML 团队通常需要探索数据以确保数据正确并为 ML 做好准备。直方图、散点图、箱线图、折线图和条形图都是确认数据是否正确的有用工具。此外,可视化还有助于数据科学团队完成探索性数据分析。这个过程使用可视化来发现模式、识别异常、测试假说或检查假设。探索性数据分析不需要正式建模;相反,数据科学团队可以使用可视化来解读数据。 



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有